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摘要 本 论文 围绕 富 文档 载体 类 型 的 鉴别 、 元 数据 的 提取 等 开展 相应 的 实际 应 用 探 
索 。 笔 者 通过 开源 工具 PDFBox 以 及 Tika 对 不 同类 型 的 富 文 档 元 数据 及 正文 内 
容 进 行 提取 , 取得 了 很 好 的 实际 效果 , 为 科研 人 员 提 供 了 大 量 的 有 学 术 价值 的 情 
报 资源 。 但 是 由 于 开源 工具 的 局 限 性 以 及 富 文档 特殊 的 文档 结构 ， 导致 提 取出 来 
的 元 数据 及 正文 内 容 准 确 率 欠缺 完美 ， 笔 者 后 续 将 对 此 进行 研究 并 完善 改进 。 
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Abstract This paper focuses on the practical application of the identification of the rich 
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随 着 网 络 传播 方式 的 广泛 普及 , 越 来 越 多 的 管理 机 构 、 科 研 机 构 在 通过 正式 
交流 渠道 (如 期 刊 、 图 书 等 媒介 ) 发 布 研 究 成 果 的 同时 , 他们 也 选择 通过 Internet 
这 类 非 正式 交流 平台 发 布 、 共 享 相关 的 科研 新 闻 、 重 大 成 果 或 研究 报告 、 年 度 预 
算 等 ， 这 些 内 容 除 了 以 html 形式 存在 ， 更 多 的 以 PDF、DOC、PPT 等 载体 形式 
存在 。 后 述 的 几 种 载体 形式 文本 中 除了 正文 内 容 外 , 还 包含 以 标准 化 的 方法 对 不 
同文 本 格式 的 属性 ， 如 加 粗 、 字 体 以 及 文档 格式 等 进行 编码 的 信息 趾 。 参 照 
OpenDocument 的 概念 ,笔者 将 其 定义 为 富 文档 文件 .这 些 富 文档 文件 往往 比 html 
一 类 的 平 文档 包含 了 更 为 丰富 、 相 对 正式 的 情报 知识 ， 是 情报 分 析 人 员 、 科 研 人 
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员 特 别 关 注 的 重要 对 象 。 对 基于 自动 信息 采集 开展 的 科技 动态 监测 工作 而 言 , 在 
海量 的 动态 信息 采集 过 程 中 准确 识别 筛选 出 这 些 富 文档 的 载体 类 型 , 充分 利用 富 
文本 包含 的 丰富 描述 内 容 的 信息 ， 如 文档 中 色彩 、 字 形 和 字体 变化 对 文档 内 容 的 
显著 突出 作用 乌 ， 获 取 其 相应 的 描述 元 数据 ， 如 标题 、 发 布 时 间 、 摘 要 等 ， 并 从 
其 正文 内 容 中 识别 出 其 中 包含 的 重要 科技 对 象 人 人物、 机构、 会议、 战略 计划 、 
法 案 等 ) 及 科技 主题 ， 对 进一步 开展 重要 科技 信息 计算 、 科 技 资源 间 关 联 关 系 分 
析 等 有 重要 影响 。 本 论文 即 围绕 语文 档 载体 类 型 的 鉴别 、 元 数据 的 提取 等 开展 相 
应 的 应 用 探索 。 
1 富 文档 监测 与 识别 的 相关 研究 

目前 , 专门 针对 多 种 类 型 的 网 络 富 文档 文件 进行 载体 类 型 的 准确 识别 及 元 数 
据 信 息 提 取 的 研究 不 是 太 多 ， 其 中 多 数 研究 围绕 着 文档 物理 层次 的 表达 Bl、OCR 
句法 识别 及 纠正 由 、 基 于 富 文档 特征 的 逻辑 结构 探测 四 、PDF 文件 信息 的 抽取 与 
分 析 开 展 由 、PDF 科技 论文 语义 元 数据 的 自动 抽取 研究 0 、 基 于 PDFBox 抽取 
PDF 格式 的 学 术 论文 上 3 等， 这 些 研 究 对 于 笔者 在 提取 语文 档 的 相关 元 数据 信息 
时 具有 相应 的 参考 意义 ， 如 通过 分 析 PDF 文件 的 结构 提取 出 文本 及 其 相关 的 字 
体 、 字 号 和 换行 等 文本 信息 ; 采用 基于 格式 的 定位 方法 抽取 富 文档 中 的 元 数据 信 
息 ;采用 开源 函数 库 PDFBox 对 以 语文 档 类 型 为 载体 的 论文 进行 标题 、 发 表 时间 、 
摘要 等 元 数据 的 提取 ; 借助 富 文档 文件 中 字体 的 变化 及 文字 出 现 的 逻辑 位 置 确定 
其 相应 的 标题 、 摘 要 信息 。 在 开展 语文 档 文件 的 载体 类 型 时 ， 各 类 协议 标准 可 以 
作为 识别 的 重要 依据 。 
2 富 文档 识别 与 框架 

上 文中 已 经 说 过 ,本 研究 中 富 文档 监测 与 识别 任务 包括 两 个 方面 , 一 是 富 文 
档 文件 载体 类 型 的 准确 识别 , 第 二 是 语文 档 文 件 各 类 元 数据 信息 提取 。 因 此 在 该 
任务 中 , 笔者 分 别针 对 两 个 子 任务 设计 了 相应 的 识别 方法 。 考虑 到 在 后 期 的 实现 
方法 中 , 富 文 档 文 件 的 载体 类 型 将 对 其 元 数据 的 提取 产生 重要 的 影响 , 如 工具 的 
选择 等 ， 笔 者 设 定 了 如 下 的 语文 档 监 测 与 识别 框架 (图 1) 。 
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图 1 语文 档 文 件 的 监测 与 识别 总 体 框架 


整个 流程 中 , 首先 基于 HITP 协议 传输 文件 格式 及 文件 名 后 缀 的 辅助 识别 ， 
确定 待 处 理 文档 的 载体 类 型 ， 然 后 依据 不 同 的 载体 类 型 选择 相应 的 元 数据 解析 
器 ,其 中 DOC 及 PPT 由 于 统一 采用 了 微软 的 文档 标准 ， 因 此 在 茶 些 元 数据 的 解 
析 方 面 方法 相同 , 但 由 于 其 表现 特征 上 的 不 同 ,在 具体 的 实现 中 还 有 所 区 别 。 这 
将 在 下 文中 有 详细 的 说 明 。 
3 富 文档 监测 与 识别 方法 

依据 上 文 设 定 的 总 体 识别 框架 ,笔者 将 进一步 从 富 文 档 文 件 载体 类 型 的 识别 
元 数据 信息 提取 两 个 方面 详细 阐述 富 文档 的 监测 与 识别 方法 。 
3.1 富 文档 载体 类 型 的 识别 方法 

在 信息 抓 取 的 过 程 中 ,文档 类 型 众多 、 文 档 类 型 表示 方式 多 样 化 、 网 站 的 传 
递 方 式 不 是 完全 的 标准 化 , 这 些 问 题 对 富 文 档 的 识别 造成 一 定 的 影响 。 使 用 单一 
的 标准 判定 方法 , 会 造成 一 定 的 误 判 。 因 此 如 何 综合 各 类 富 文 档 识 别 的 技术 手段 ， 
将 多 种 方式 有 效 的 组 合 ， 提 高 语文 档 识别 的 准确 度 ， 是 研究 的 关键 。 经 过 比较 研 
究 , 笔者 选择 主要 基于 HTTP 协议 传输 文件 格式 和 文件 名 后 级 识别 两 种 方式 来 获 
取 富 文档 文件 的 载体 类 型 信息 。 


(1) 基于 HTTP 协议 传输 文件 格式 的 类 型 判定 


HTTP 协议 传输 文件 格式 以 MIME 的 标准 类 型 名 命名 ， 解 析 协 议 头 的 
Content-Type 可 以 获取 MIME 类 型 名 称 ， 根 据 MIME 多 媒体 文档 类 型 标准 ， 映 
射 查询 得 到 识别 正确 的 文档 类 型 (RFC-2046 MIME Part 2: Media Types [sl 多 媒体 
文件 类 型 规定 设 定 的 常见 类 型 名 称 映射 见 表 1) 。 以 图 2 为 例 ， 这 是 W3C 首页 
的 HTTP 头 的 内 容 , 其 中 Content-Type 包含 的 MIME 类 型 名 称 为 text/html, 根据 
MIME 类 型 映射 ， 该 页 面 所 属 文 件 类 型 为 Html 文档 。 

Date=Sat, 11 Dec 2010 13:27:27 GMI 
Server=Apache/2 

Content-Location=Home .html 
Vary=negotiate,accept 

IICN=choice 

Last-Modified=Sat, 11 Dec 2010 06:07:09 GMT 
ETag="7bc1i-4971c47£f59d40;89-3£f26bd1i7a2f00" 
Accept-Ranges=bytes 

Content-Length=31681 
Cache-Control=max-age=600 

Expires=Sat, 11 Dec 2010 13:37:27 GMT 
P3P=policvref="http://wuw.w3.0rg/2001/05/P3P/p3p.xmil" 
Connection=close 

Content-Type=text/html; charset=utf-8 


2 HTTP 协议 头 解析 和 MIME 判断 


类 型 / 子 类 型 扩展 名 
application/msword doc 
application/pdf pdf 
application/rtf rtf 
application/vnd.ms-excel xls 
application/vnd.ms-outlook msg 
application/vnd.ms-powerpoint ppt 
application/vnd.ms-works wks 
text/html html 
text/plain txt 
text/richtext TtX 


表 1 常见 类 型 名 称 映射 


尽管 MIME 格式 识别 的 文档 类 型 准确 性 最 高 ， 但 其 识别 结果 仍然 具有 一 定 
的 二 义 性 。 在 有 二 义 性 发 生 的 情况 下 ， 就 需要 借助 于 其 他 方法 来 进行 辅助 判定 。 
如 需要 补充 文件 名 和 文件 后 级 详细 指定 ， 在 MIME 映射 之 后 ， 增 加 文件 名 后 绥 
识别 ， 可 提高 文档 格式 识别 的 准确 性 。 但 并 不 是 所 有 网 站 都 采用 标准 MIME 类 
型 名 指定 文档 类 型 ， 这 样 就 会 造成 MIME 类 型 获取 失败 ， 或 者 无 法 找到 对 应 文 
件 类 型 。 因 此 收集 其 它 非 标准 类 型 网 站 的 文档 类 型 标识 方式 ， 也 是 寅 文档 识别 方 
式 之 一 。 另 外 , 还 有 某 些 网 站 直接 采用 URL 后 级 的 方式 或 URL 中 嵌入 格式 类 型 
的 方式 指定 文件 格式 ， 这 就 需要 分 析 URL， 将 其 映射 到 相应 格式 的 文件 。 


(2) 文件 名 后 级 判断 


MIME 类 型 名 称 规定 了 多 媒体 文件 打开 的 程序 , 但 是 对 于 详细 的 文件 格式 仍 
一 定 的 差异 。 如 application/vnd.ms-powerpoint ， 规 定 的 该 文件 应 该 使 用 
ms-powerpoint 程序 打开 ,而 ms-powerpoint 可 以 打开 的 程序 包括 ppt，pps 等 多 个 
不 同 后 级 类 型 的 文件 。 因此 要 使 用 补充 文件 名 称 , 根据 文件 名 称 的 后 级 进行 详细 
文件 格式 的 判断 。 


Content-Disposition=attachment; filename=A1002.ppt 


在 补充 HTTP 协议 头 的 Content-Disposition 内 容 中 ， 包 含 了 建议 保存 的 文件 
名 称 , 在 filename 参数 指定 了 文件 的 完整 名 称 和 文件 后 缀 名 ,可 以 以 文件 后 经 名 
为 根据 判读 文件 的 精确 的 文件 类 型 。 


(3) URL 判断 


有 一 部 分 网 页 已 经 在 URL 中 或 后 级 上， 直接 标明 了 文件 类 型 。 如 apache 的 
开源 软件 httpclient， 其 下 载 地 址 为 : 
http://labs.renren.com/apache-mirror//httpcomponents/httpclient/binary/httpcomponen 
ts-client-4.0.3-bin.zip， 其 后 级 为 zip 压缩 文件 格式 ， 亦 可 以 作为 文件 类 型 判断 的 
依据 之 一 。 又 如 布 鲁 金 斯 学 会 的 某 个 情报 产品 的 图 片 ， 其 链接 地 址 为 
http:/www.brookings.edu/~/media/research/images/c/cp%20ctbcrowd001 16x9.jpg? 
w=120， 该 地 址 中 “.jpg” 标 明了 其 图 片 格式 类 型 。 但 是 ， 有 些 URL 的 隐藏 载体 
类 型 并 不 在 URL 后 缀 中 , 如 果 依 然 采 取 判 断 URL 字段 后 缀 的 方法 肯定 没 法 有 效 
判断 其 载体 类 型 。 例如: 有 的 URL 地 址 中 隐 含 了 format=pdf， 针 对 此 类 URL 我 
们 也 可 以 得 出 此 URL 的 载体 类 型 是 PDF 格式 。 

综合 上 述 三 种 方式 的 分 析 , 笔者 充分 融合 了 这 三 种 方式 的 优 缺 点 , 对 其 进行 
排序 组 合 ， 形 成 文档 类 型 判断 流程 (图 3) ， 基 于 这 一 组 合 的 流程 ， 笔 者 可 以 准 
外 实现 对 采集 下 来 的 富 文 档 文 件 的 载体 类 型 判别 。 
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图 3 富 文档 文件 载体 类 型 识别 流程 


另外 在 实际 的 监测 资源 采集 过 程 中 , 磁 到 前 三 种 方法 均 无 法 判断 的 情况 , 针 
对 此 种 情况 , 目前 笔者 采用 了 在 可 配置 文件 中 进行 特殊 配置 的 方法 来 定义 其 载体 
类 型 ， 如 在 配置 文件 中 定义 : 
http://rspb. royalsocietypublishing. org/highwire/powerpoint/65580、 
http://www. avc-mr. com/research/rl1/p1/2015 等 ， 磁 到 此 类 URL 或 者 以 此 为 前 
级 的 URL， 系 统 自动 判断 其 载体 类 型 为 PDF 文档 。 
3.2 富 文档 元 数据 提取 方法 
确定 了 富 文 档 格 式 类 型 之 后 ， 需 要 进一步 获取 这 些 富 文 档 文件 的 元 数据 信 
息 。 对 监测 项 目 而 言 ， PPT、DOC、PPT、XLS 这 几 类 富 文档 是 关注 的 重点 ， 因 
此 ， 笔 者 重点 围绕 这 几 类 富 文档 探索 了 相关 的 元 数据 提取 方法 。 受 篇 幅 的 限制 ， 
本 文中 将 集中 于 文档 发 布 时 间 、 标 题 、 正 文 内 容 的 提取 几 个 方面 。 

(1) 文档 发 布 时 间 的 提取 。 

通过 大 量 的 统计 分 析 , 笔者 发 现 , 在 富 文 档 的 三 进 制 流 中 往往 包含 了 制作 时 
间 、 制 作 软 件 等 丰富 的 技术 元 数据 ， 这 些 信息 较 好 地 表现 了 文档 的 创建 时 间 、 修 
改 时 间 。 因 此 , 笔者 针对 文档 的 发 布 时 间 的 提取 主要 通过 解析 其 二 进 制 流 中 属性 
部 分 的 相关 技术 信息 。 以 PDF 文档 为 例 , 笔者 判定 其 发 布 时 间 的 主要 方法 如 图 4 
所 示 ， 在 获取 PDF 的 技术 信息 时 ， 笔 者 先 判定 其 是 否 存在 更 新 或 者 修订 的 时 间 
信息 ， 若 存在 ， 以 此 为 依据 作为 PDF 的 最 终 发 布 时 间 ， 若 无 ， 则 取 其 创建 时 间 。 
在 实际 的 应 用 中 , 通过 这 种 方法 , 笔者 可 以 准确 解析 出 9$% 以 上 的 富 文档 文件 的 
发 布 时 间 。 


if ((null != pdfInfo.getModificationDate()) 
So ovals(podrnmto getModrrLeatlionDace() 
Calendar cale = pdfIinfo.getModificationDate(); 
taskStr = tranferTime (cale.getTime ()); 

} else if ((null != pdfIinfo.getCreationDate()) 
&& (!"".equals (pdfInfo.getCreationDate()))) { 
Calendar calel = pdfIinfo.getCreationDate(); 
taskStr = tranferTime (calel .getTime ()); 


} 


1f (null l= EaskStr eg (Iv equals (EaskStr)) 
Qe! ecuals askote Eelm 
Timestamp taskTime = Timestamp.valueOf (taskStr); 
if (taskTime.before(cadiTime)) { 
stamp = taskTime; 
} 
} 


图 4 判定 PDF 发 布 时 间 的 主要 流程 判断 
(2) 文档 标题 的 提取 


在 对 大 量 语文 档 文件 进行 特征 分 析 的 过 程 中 ， 笔 者 发 现 语文 档 文件 的 标题 
往往 会 出 现在 以 下 几 个 位 置 : 链 入 页 面 上 的 锚 点 文字 ; url 字段 中 标 出 的 标题 内 


容 ; 文本 属性 中 标题 属性 值 ; 正文 内 容 中 顶部 最 大 字体 值 。 而 在 特征 表现 上 ， 寅 
文档 的 标题 往往 出 现在 内 容 页 的 顶端 ; 往往 是 内 容 中 最 大 的 字体 或 者 在 颜色 、 字 
形 上 与 其 它 内 容 有 所 区 别 ;往往 不 会 少 于 3 个 分 词 ， 也 不 会 超过 30 个 分 词 〈 包 
括 副 标题 ) ;往往 除 介词 、 连 接 词 外 ， 其 它 单词 首 字 母 为 大 写 或 全 为 大 写 ; 往往 
在 标题 中 出 现 的 词 或 词组 会 出 现在 正文 中 。 


基于 这 几 点 分 析 结果 ， 笔 者 设计 了 如 下 的 处 理 流程 : 
(1) 从 锚 点 文字 中 获取 文档 标题 


在 监测 采集 过 程 中 ， 通 过 记录 链 入 、 链 出 页 面 的 关系 以 及 相应 的 销 点 文字 信息 ， 
从 中 取得 文档 标题 ; 


(2) 从 页 面 url 字段 中 获取 文档 标题 


通过 分 析 url 字段 ， 利 用 相关 函数 取得 最 后 一 个 字符 “/” 后 的 字段 ， 并 殖 换 截取 
后 字段 中 的 非 字符 信息 即 为 文档 标题 。 


(3) 从 文本 属性 中 获取 文档 标题 。 针对 这 一 类 的 信息 ,可 以 分 别 利用 Apache 
PDFBoxt 中 和 Apache POI9 两 个 开源 工具 进行 相应 的 处 理 和 获取 。 但 是 这 一 来 源 
的 信息 往往 较 少 ， 多 数 情况 下 该 来 源 值 为 空 。 


(4) 从 正文 内 容 中 获取 文档 标题 。 在 正常 的 富 文档 中 ,正文 顶部 最 大 字体 且 
无 结束 句号 的 单独 成 段 文字 往往 可 能 是 文档 标题 , 可 以 分 别 利 用 Apache PDFBox 
和 Apache POI 解析 获取 其 首页 的 内 容 并 从 首页 内 容 中 按 行 取出 同一 字体 的 最 大 
字体 内 容 。 


针对 此 解决 的 方法 主要 如 图 5 所 示 。 笔者 主要 是 取 了 三 处 信息 , 包括 富 文档 
第 一 页 上 最 大 字体 内 容 和 第 二 大 字体 内 容 ， 同 时 采用 了 富 文 档 的 来 源 url 中 相关 
言 息 作为 辅助 判定 信息 。 通过 这 种 方法 , 笔者 可 以 准确 识别 出 大 约 80% 以 上 的 富 
文档 文件 的 标题 信息 。 


Delcare Text as rich Document” s Content; 

Declare richTitle as rich Document”s final Title; 

Declare CandateTitlel; 

Declare CandateTitle2; 

Declare CandateTitle3; 

解析 出 第 一 页 的 内 容 信息 〈 包 括 格式 信息 ) 

CandateTitlel= 第 一 页 内 容 信 息 中 的 最 大 字体 内 容 ; 

CandateTitle2= 第 一 页 内 容 信 息 中 的 第 二 号 字体 内 容 ; 

CandateTitle3= 该 富 文 档 url 中 最 后 一 个 “/” 至 文档 格式 符 如 “.pdf” 前 的 内 容 ; 
让 (CandateTitlel.token.size> 设 定 阔 值 ) 

{ 


这 CandateTitle1 中 包含 了 “。”、“? ”、“! ”号 等 句子 结束 符 ){ 
截断 Candatetitlel 至 这 些 符号 ; 
}else{ 

替换 candateTitle1 中 所 有 的 格式 符 


TichTitle=candateTitlel; 
telse{ 
将 candateTitle1 和 candateTitle2 拼 接 在 一 起 ， 重 复 上 面 的 步骤 ; 
若 该 拼接 字符 还 不 符合 要 求 ， 则 再 取 用 candateTitle3 的 字符 内 容 。 


} 


图 5 获取 pdf 文档 title 的 方案 流程 
(3) 正文 内 容 的 提取 


以 PDF 文档 为 例 ， 针 对 PDF 类 型 文档 的 正文 内 容 的 提取 ， 笔 者 主要 是 利用 
了 开源 工具 PDFBox 对 此 类 文档 进行 解析 抽取 。 笔 者 采用 的 是 PDFBox-1.6 版 本 。 
PDFBox 是 一 个 开源 的 Java 文档 API 库 , 通过 这 个 库 可 以 访问 PDF 文件 的 各 项 
信息 ， 还 可 以 进行 创建 、 处 理 以 及 文档 内 容 提取 等 一 系列 操作 。 笔 者 抽取 PDF 
文档 正文 内 容 主 要 方法 流程 如 图 6 所 示 : 


FileOQutputStream fstream = null; 
BufferedOutputStream stream = null; 
File file = noll; 
PDDocument document = null; 
String resuit = 下， 
int startPage = 1; 
int endPage = Integer.MAx VALUE; 
try { 
InputStream input = new ByteArrayInputStream(htmlfile); 
document = PDDocument.1loadl(input}); 
PDFTextStripper stripper = new PDFTextStripper{); 
stripper.setSortByPosition(true); 
stripper.setStartPage (startPage); 
stripper.setEndPage (endPage); 
result = stripper.getText (document)}); 
System.out.println{"---read pdf success'!'--—"); 
} catch {Exception e) { 
System.out.println{("-—--read pdf failed!———"); 
} finally { 
if {document != null) { 
try { 
document .close(): 
} catch {IOFException e) { 
System.out.println{"---close pdf failed!'--——"); 
} finally { 
document = null; 
System.gc{(); 


图 6 PDFBox 提取 正文 内 容 的 主要 方案 流程 


通过 PDFBox 能 够 解析 大 多 数 PDF 文档 ,但 是 笔者 通过 观察 实际 的 PDF 采 
集 过 程 中 发 现 ， 有 部 分 PDF 文档 未 能 解析 出 正文 内 容 ， 而 这 些 PDF 文档 对 科研 
人 员 也 有 很 有 价值 , 为 解决 科研 用 户 的 这 种 需求 , 笔者 调研 了 目前 一 些 其 他 开源 
的 文本 解析 工具 ,通过 调查 、 测 斌 发现 Tka 很 好 的 解决 此 类 问题 ,Tikali9 是 Apache 
的 Lucene 项 目下 面 的 子 项 目 ， 它 集成 了 现 有 的 不 同类 型 的 文档 解析 库 ， 并 提供 
统一 的 接口 ， 便 于 操作 不 同类 型 的 富 文档 。 通 过 Tika 可 以 自动 检测 各 种 富 文档 
的 类 型 并 抽取 这 些 不 同类 型 的 富 文 档 的 元 数据 及 正文 内 容 信 息 。 笔 者 采用 Tika 
解析 PDF 文档 正文 内 容 的 主要 方法 流程 如 图 7 所 示 : 


Tika tika = new Tika(); 

tika.setMaxStringLength (1000*1000) : 

Metadata metadata = new Metadata(): 

metadata.set (Metadata . AUTHOR, " 空 写 ") ; 

metadata.set (Metadata.RESOURCE NAME KEY, "pdf"); 

URL url = new URL(Uu); 

String str = tika.parseToString (url); 

for (String name : metadata.names()) { 
System.out.printinl(lname + ":" + metadata.get (name)); 


} 
return str; 


7 Tika 提取 正文 内 容 的 主要 方案 流程 


综 上 所 述 , 针对 PDF 类 型 的 语文 档 正 文 内 容 的 提取 , 笔者 首先 采用 PDFBox 


进行 提取 , 如 果 提 取出 的 正文 内 容 为 空 且 为 PDF 文档 , 接着 采用 Tika 进行 提取 。 


4 富 文档 监测 与 识别 的 应 用 效果 

基于 上 述 的 富 文档 监测 和 识别 框架 集 方法 ， 笔 者 综合 利用 了 htmlParser["1、 
PDFBoxBI、POI9、Tika0o 工 具 等 实现 了 富 文 档 载体 类 型 判定 和 元 数据 获取 的 相 
关 小 组 件 ， 并 将 这 些小 组 件 应 用 于 实际 的 网 络 监测 系统 中 ， 取 得 了 较 好 的 效果 。 
目前 ， 笔 者 所 在 的 项 目 组 共 针 对 6578 个 监测 信息 源 、18723 个 监测 目录 开展 常 
规 的 动态 监测 ， 共 采集 资源 量 达 到 了 10750006 条 ， 其 中 ， 基 于 本 文 提 出 的 富 文 
档 监测 与 识别 方法 ， 共 判定 出 310528 个 PPT、PDF、DOC、XLS 类 型 的 富 文档 
文件 ， 并 准确 获得 了 这 些 文件 的 标题 和 发 布 时 间 ， 如 图 6 所 示 。 笔 者 在 实际 应 用 
中 ， 通 过 随机 抽取 2000 篇 富 文档 进行 分 析 ， 通 过 比较 系统 识别 的 标题 、 发 布 时 
间 等 元 数据 和 人 工 识 别 的 标题 发布 时 间 等 元 数据 , 从 中 筛选 出 比较 吻合 的 记录 ， 
从 而 得 出 其 识别 准确 率 。 在 实际 比 对 过 程 中 ， 如果 识别 的 元 数据 与 人 工 识别 的 元 
数据 出 现 了 细微 的 偏差 ， 如 标题 不 是 太 完 整 ， 发 布 时 间 年 月 吻合 等 ， 笔 者 将 这 样 
的 记录 也 认为 是 基本 吻合 的 。 具体 的 测试 结果 如 表 所 示 。 这些 解析 出 的 标题 和 发 
布 时 间 在 后 续 的 基于 题名 的 文本 聚 类 以 及 时 间 线 上 的 趋势 变化 分 析 中 有 着 重要 
的 基础 支撑 作用 。 


| Eu culorusco EIU TF SIU SUSSER OG UN OL EEE snurumcuscss… 
| The Effectiveness of Mindfulness Based Interventions i... pdf 2016-05-18 21:24:25.000 hittp: /sro.sussex.ac.uk/:B1180A17__ smbhome.uscs.s... 
| No load shedding during Sahr, lftaar Abid Sher pdf 2016-05-28 02:52:53.000 ”http: AAAwww.brecorder.comytop-newszpakistany29834... 6 
判定 出 的 富 文档 类 型 、 标 题 和 发 布 时 间 示 例 
YA y » y TD 
资源 样本 总 数 吻合 记录 数 识别 准确 率 
富 文档 文件 2000 条 1759 条 87.95% 


表 2 富 文档 元 数据 识别 效率 测试 结果 
5 总 结 
通过 对 富 文档 监测 与 识别 的 研究 与 探索 , 笔者 拓展 了 文本 知识 内 容 的 识别 方 
法 , 为 后 续 的 深度 知识 分 析 提 供 了 有 效 的 支撑 。 但 是 在 实际 的 应 用 中 笔者 也 发 现 
现 有 的 解决 方案 中 无 法 解决 的 问题 ， 比 如 ， 还 有 极 少数 将 html 文件 判定 为 pdf 
文件 的 情况 出 现 , 识别 出 的 标题 中 包含 了 较 多 的 乱 字 符 。 通 过 在 今后 不 断 的 语 料 
累积 中 ， 笔 者 可 以 进一步 发 现 这 些 错误 情况 的 规律 ， 进 而 提出 相应 的 方法 解决 。 
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